語音辨識技術日新月異的同時,電腦似乎也開始理解人類的肢體語言。卡內基美隆大學(CMU)機器人學院的研究團隊近日發布其最新成果,可讓電腦在單一鏡頭內即時偵測複數人的姿勢、動作,以至臉部、五指等細節,藉此辨識人與人、人與物之間的互動關係,以期開創新一種人機互動模式。
機器人學院副教授Yaser Sheikh指出,人們透過肢體動作溝通的頻率與透過言語相去不遠,現今的電腦對此仍多少存有一些障礙。透過此新發布的辨識技術,人們能以更自然的方式與機器溝通,比方單純指向某物來對電腦下指令等;機器也能感測周遭人類彼此間的非言語溝通細節,諸如當下的動作、情緒,適不適合被打斷等,在餐廳、車道等社會空間中提供更進一步的服務。提供新的人機互動機制之外,Sheikh也期望令人們藉此更了解周遭的世界。
辨識群體中每個人的動作,乃至彼此間可能的互動情形,對電腦是不小的挑戰;尤其當群體較龐大時,純靠單體動作捕捉程式顯然不敷使用。另一方面,鑑於單一鏡頭難以捕捉手部動作全貌,加上相對身體、表情等動作缺乏已標註過的影像資料庫,手勢辨識顯得更為棘手。為此,該新技術的研發主要借助於CMU的Panoptic Studio多重攝影系統完成–此圓頂攝影棚具備超過500顆影像感測器,包含30個高畫質攝影機,可360度辨識棚內所有人的動作。
Sheikh表示,Panoptic Studio可同步強化肢體、臉部與手部的辨識訓練,模型由2D轉3D亦有助於自動建立家住過的影像資料。藉此,該研究團隊由上而下,先單獨定義影像場景中出現的各個身體部分,諸如手臂、腿部與臉部等,最終將所有部分接合起來為特定個體,以利電腦進行辨識;至於較棘手的手勢辨識,則透過該系統加速建立資料庫,令電腦單憑部分手部影像即可連結其他500多個相關角度,以此較精準地判斷鏡頭內個體的手部動作。
此辨識技術賦予機器理解人類行為的能力,應用上具有不少潛力,諸如協助自動駕駛車輛監控周遭行人的行為,藉此預測其動向、強化安全性;以運動賽事分析來說,則可判斷各球員的場上位置、當下的動作,進一步推斷其目前甚至未來的行動;未來甚至可望針對特定病徵協助進行診斷、復健等醫療相關作業,比方自閉症、憂鬱症、學習障礙等。
現階段為強化推廣,Sheikh表示,其研究團隊已釋出多人、手勢判別相關的程式碼於網路上。目前該技術已被廣泛採用於諸多研究群組,並有超過20個含汽車廠商在內的商業組織對此表示興趣。